查看原文
其他

【干货】航运大数据在线讲座--上海国际航运研究中心 徐凯

2015-08-17 徐凯 航运评论

2015年8月11日晚8点在新浪微博“物流新力量”群在线讲座

演讲者:徐凯

新浪微博:@徐凯-航运大数据

上海海事大学国际航运研究中心航运信息化研究室主任

港行信息化、物联网、人工智能算法、物流管理信息系统专家

主持人:@林庆-供应链与物流 中国物流与采购联合会常务理事、中国物流学会理事

记录整理:@张小四NN 黑龙江香其物流有限公司,天津办事处 经理



  各位老师和同学大家晚上好,很感谢大家收听我的讲座。


  大数据在这些年一直以来已经是一个大家非常关注的热点,事实上在很多行业里面大家都做过统计。曾经国外航运电商平台INTTRA亚太地区的经理介绍,这个平台接入的企业无法满足平台的数据要求,好的公司能满足80%以上的业务数据的接入,差的可能只能做到20%的数据接入。



  但有一个不争的事实是,大数据的时代已经到来了。


  这张图可以看到,我对未来的商业社会的模型的理解是,我们所有的商业行为都是源自于对市场的一些需求,比如我们的物流行业,就是为了满足对物理实现空间位移,从而上产生商业上的第三利润来源,通过物体的空间位移来满足大家的需求。那么,有了需求以后商业才能形成交易,在交易过程中就产生了大量数据。通过交易产生的数据,我们对数据进行分析,可以用来改善我们的服务,可以更好地满足需求,从而刺激我们产生更多的交易。未来的社会,谁能把大数据的价值发挥出来,谁就能在商业竞争中保持领先的优势。


  所以说,我们为什么做航运的大数据分析呢?



  航运的信息化包括物流信息化的程度已经到了一定的高度。比如,在物流环节过程中,对食品的来源的追溯,我们更多的是采用非人工的方式,而是采用二维码、条形码或者是RFID标签的识别的方式来进行数据的采集。从政府的角度来说,我们对数据更多的是应用系统里的资料和保存的数值,仍然存在数据上的形式、格式以及数据量等各种我们无法解决的问题,在经营决策时迫切需要将数据进行融合并统一的分析,大数据最终的目标提高管理决策的水平,作为管理决策的依据。



  那么什么是信息呢?



  比如说,我们看到是事物的本身是在自身的运动中或者事物之间的相互作用中,两个事物的接触,因为内能不同,从而产生热量传递,使我们感知到事物之间是有温度的。类似的事情,我们是可以通过传感器是可以采集到的,也就是前几年非常火的一个概念,叫做物联网。通过自动化的测量,可以采集到数据,而存在的数据的价值在于可以保存采集到的值并可以将它们传输出去。比如,当看到一个照片时,要考虑是否有内容,是否“有料”,有价值,这才是我们要善于利用加工并感兴趣的部分。今天是一个数据爆炸的时代,如何把“一堆”数据变成有价值有意义的东西,这时候就需要我们把数据中的信息提炼出来。



  在信息的提炼和加工的过程中,不一定会对信息完整保留。


  无所压缩是指,信息采集的开始,到最终加工形成数据的过程中,没有因为要缩小它得体积,比如说存储量,而丢失关键性的内容。也就是,从信息量的角度来说,内容没有减少。如上图事例。



  我们经常会做有损压缩的事情,容易丢失很多信息的细节。比如说,一个地方的平均工资3000元,其中有人的工资高达数万元,有的人不足千元这样的细节。我们知道一旦信息被压缩后的破坏时不可逆的,下面给大家看看航运领域都有哪些类型的数据



  为什么我们迎来了大数据时代呢,过去我们是将数据存储数据库里,通过信息系统的方式,来实现某一种具体的业务功能,这是以前的功能模式,数据库对接信息系统的方式。


  今天我们发展到了一个平台经济、平台信息化模式的时代,一切东西扁平化,很多鸿沟都不存在,比如信息化的载体---网线,我们可以用它打电话,上网也可以看电视。其本质就是告诉大家,很多东西不需要细分那么细的类型,很多东西呈现出扁平化,包括信息的存储和传递方式,更融合的把信息保存在通道上,对平台形成支撑。



  未来是云计算的时代,计算是否在本地完成或者数据是否存储在本地都不重要了,数据和信息资源就像取之不尽的资源,随用随取,所有的数据都不在本地落地,这就是未来的一种模式。


  那么什么是大数据呢?





  价值密度也就前面所讲到压缩问题,举个例子,可能20世纪前人类所产生的信息量比不过今天一天所产生的信息量。还有最后一个特征-速度,也就是时效性,当天信息可能有效,到了明天就没有时效性了,比如说天气预报。


  那么航运之所以为大数据,因为它也有“4V”的特征



  最关键的是,我们要知道大数据是如何产生的?经过我长时间的归纳,大数据根本来源只有两个。



  1.物联网。如此大的数据单纯的从劳动的强度和密度来看是人力无法企及的,必须要依赖有线或无线的传感器来实现,它们组成的物联网,是大数据的主要来源。


  2.人机交互。我们在上网浏览网页或者商品时,我们的行为、爱好、习惯等都已经被抓取下来了,人机交互产生的数据量也是非常巨大的。


  为什么要采集这么大量的数据,要花费这么大的代价呢?



  大数据全样本分析和抽样分析的区别在于,大数据会详细记录实时指数,具有时效性和细分性,抽样比如说,过去我们要知道社会的物价水平,选定某一城市,均衡的抽取多个菜市场,精选几种蔬菜或者粮食的交易价格,


  过去做数据分析时会有因果关系,什么东西导致了什么,推测出它们之间的联系,比如说两者之间有线性联系,或者非线性的联系,它们之间的联系用一个参数来表达。今天,我们根本不知道所有的数据有什么样的关联,让计算机自动分析,看看哪些数据有关系。我们更注重的是相关性的分析。


  这里有两个例子:


  一是沃尔玛,沃尔玛公司通过数据关联性分析挖掘得出,在每年飓风来临之前,不仅手电的销量增加了,蛋挞的销量也随之增加了,因此每年飓风来临之前,沃尔玛都会把原本风马牛不相及的两件东西-手电和蛋挞都放在飓风用品的位置,以方便用户购买,取得了非常好的销售业绩。


  二是Google搜索引擎,通过人们搜索的5000万条的相关词条,在流感爆发的前一周成功地预测了H1N1禽流感传播的具体区域,使得美国公用卫生组织获得了非常有价值的信息,并及时采取了应对措施,而这一数据和流感爆发后官方发布数据的相似度达97%。


  那么研究大数据都是在研究什么呢?


  简单的以我负责的港行大数据实验室来说,实际上我们做了存储,加工,展现,分析,数据的采集等工作。



  物流行业有一个非常有名的观点,我们不是要拥有资源,而是要支配资源,比如说,我们不需要自己的车队,但如果我们可以调动足够的车辆进行运输,掌握资源远远比拥有资源更重要。那么如何掌握信息资源呢,如下图,我在这里做了一个航运信息平台和航运业务平台做了一个对应关系。航运业务包含很多的航运业务资源,业务资源对应很多的航运数据,将这些数据通过大数据进行分析,对航运信息资源进行优化,从而达到对现实世界中航运业务的优化。



  下面是一个经验的模型



  下面是我们对数据进行采集的一些方式:





  除此之外,我曾经设计过一个GTMS通用目标监控采集汇总的方案,这个方案可以对所有移动的物体进行监控,相对于物联网来说,这个方案可以称之为“移动物联网”。


  在存储方面,类似Google这样存储和分析大数据,我们是通过千千万万个小型的机器共同来完成,用类似“蚂蚁吃象”的方式来解决大数据的存储和分析问题。





  在我所主持的港行大数据实验室里面,我们存储了过去3年大约300多亿条的船舶轨迹数据,这个数据量非常的大。



  
  所以我们也是利用大数据的这种分布式的解决方案去做的,所以我们有很多的实验环境




  通过这些实验环境来支撑如此庞大规模的数据的计算。同时,我们还要其它的东西来辅助将大数据可视化,转化成我们可以理解和接受的形式,分析数据间的关联,帮助大家进行决策。也就是“从数据到决策”的过程。


  我们现在所做的东西,可以用类似流式地图来表示。这里面有法国红酒出口的流式地图,还有物流供应链的地图,如货物的供应方式,行驶方向,货量等用不同的线条的粗细来表示。



  还可以生成更为复杂的图形来表示这些复杂的航运事件或者物流事件的数据,如下图



  对于很多做行业市场分析或者经济分析的人来说,指标数据还是非常重要的,所以我们的研究技术路线是如下图所示



  将各项数据融合存储在基于NOSQL查询平台上,可以解决3-5年海量数据的快速检索。通过离线的分析,对计算模型的验证,分配多节点同时计算,计算结果出了可以可视化展现外,还以可以存入指标性数据库。未来是要将大数据和指标性数据库大打通,所有来源于大数据分析和计算得出的指标性数据,为经济性分析和市场分析提供数据支持。


  下面给大家展示一张直观性了解全球的船的位置,绿色的点为船舶。



  对船舶的进港和泊位的研究,当一个船进港后,会有这样的一个过程。





  因此,根据船舶的位移情况进行推测,用计算机对全球轨迹分析,通过GTMS平台提取后,筛选出有用的数据,找出所有的停泊事件,根据停泊事件发生的位置分布情况,把锚地和泊位用具列的方法具列出来,确定锚地和泊位的位置后就可以形成船舶行驶日志,也就是事件日志,只有事件日志是有意义可以用来分析更为复杂的东西。



  根据图片上的点可以大致看出陆地的形状,还有一些陆地的港口和可以锚泊的泊位。



  拿厦门为例,我们通过大数据分析,可以大致推测出港口和锚地或者即将成为锚地的地点。


  除了刚才上述基础性的工作外,我们还以通过大数据分析来某一航线。三条船过去一个月的行驶情况以及在哪些地方停过,根据行驶数据将这些船进行分类,从而可以知道在这条航线上有哪些船。



  下图为全球航线拟合结果。



  我们也通过大数据分析可以了解能耗和碳排放的情况



  最后我给你大家介绍一下我们的上海国际航运研究中心,希望大家能关注我和我们航运研究机构







  感谢大家听我的讲座,谢谢大家。


  课后问答:


  @林庆-供应链与物流:今天徐主任的课程让所有的同学可以说是脑洞大开,也为各位同学开启了了解大数据在物流中影响的一扇大门,我个人感觉大数据在近几年突然变得无所不在,似乎每个人都想去收集它、分析它,并且从中获得一定的收益,整个舆论的导向有人在夸耀它,也有人惧怕它所带来的巨大的影响。我们作为物流行业来讲,分门别类比较多,其中有物流园区、专线企业、快递物流行业,在这些行业中每个人都想试着去了解应用大数据,那么我想问下徐主任,相对于非航运物流个来或者说公路运输企业对大数据的挖掘或者利用方面有什么好的建议?


  @徐凯-航运大数据:感谢林总的提问,我觉得这是非常好的一个问题。我做大数据研究的同时也在做行业电子商务,跨进物流以及跨进电商的研究,曾经一位航运电商的老总说过:现在的物流行业涌现出了很多的概念,这些概念在行业里面可能造成了很大的冲击,这些概念形成的冲击,短期内往往被高估了,但在长期价值上面往往被低估了。比如说,C2C的电商做的风生水起的时候,很多B的行业是不是也能够做到互联网+或者+互联网,这个时候很多人把这个概念打得很高,很多行业不乏这样的例子,但在推进的过程中,当发现一些阻力或者问题的,会怀疑这些东西是不是未来的方向。


  我觉得大数据也是这样的问题,目前来说把大数据提升到很高的位置,说它无所不能,把它的功能神话,其实是不存在意义的,我们现在所掌握的大数据并不是很完善的,对很多企业来说,不必谈大数据色变,好像我不懂大数据就追不上形势了,并不是这样的。


  我为什么说这个问题非常有价值的地方,也恰恰就在这,因为很多的物流运输企业,其中民营的不乏很多中小型物流企业,对于这些企业来说,信息化这个问题应该怎么去做,怎么可以在自己规模和运营成本非常紧张情况下去做信息化。不然的话就变成了不做信息化是死,做了信息化可能死的更快,这样就失去了意义了。


  这个时代我觉得大家可以考虑充分的运用两样东西,


  一是云计算,现在云计算中间有一种软件功能的方式,不必自己去购买所有的系统,运用云计算的手段,在线可以提供很多的服务,不必自己去购买服务器。


  二是对于很多中小型物流企业,很重的东西是利用有限的资源把最重要事处理掉,信息化的事情可以利用一些新的手段,降低成本,并实现自己身的协同办公的效率的提升,或者是协同运营的效率的提升,这一点其实是比较重要的事情。


  做好信息化的基础,前提是把我们业务之间实际上所接触到的单证数据电子化了以后才能谈到大数据。另外,我也觉得为什么企业在经营或者运行过程中感到很大阻力,由于我们的社会或者政府对公共的数据资源的开放程度力度还不够,这方面以后应该是要加强的。


  @logistics11:大数据能不能简单的理解为在经验中寻找规律然后利用规律?


  @徐凯-航运大数据:寻找规律并利用规律,这是人类思维和改造这个世界的普遍的一般的规律,也就是经验是从实践中来,也是要应用到实践中去的。


  肯定是规律,而不仅仅是大数据的规律,应该是整个人类发展到今天最重要的一个方式。大数据延伸了人们了解世界的手段,我们过去没有这么多这么全这么完整的数据放到一块来计算,我们人类的脑容量有限,在思考的问题的时候会复杂的问题简单化,具体的数字抽象化,人类的聪明和智慧体现到举一反三,触类旁通这类启发式的思维上。大数据走了另一条路,它擅长我们人类不擅长的事,它可以把完完整整的数据,不加压缩的拿过来,把它用一种我们人类没法去做的方式,类似成千上万的人去思考同一个问题,每个人思考这件事的一个环节。这就像有一个人说的,如一个小学生做数学题,盖个房子,一个人盖个房子要十天,那么是不是十个人盖个房子只需要一天呢,实际上不是这样的,我们人类做不了这样的分解,但是机器可以做。


  或者说我们人类更擅长那些直观的统计报表或者是图形之类的东西,那么怎么才能既不损失我们数据原本的细节,又能把那些重点的数据提炼出来呢?这就是我们大数据要做的事情。有了大数据,我们就可以改变过去分析问题的方式,使得效率更高、考虑的面更广、更完全,会把很多的细枝末节的效率问题解决。


  @在呼吸的植物:我们怎样才能知道船的行为呢?


  @徐凯-航运大数据:感谢您的提问,这个问题提的非常好。实际上,在我们的研究中间,我们采用了两类算法。


  第一类,怎么确定停泊的事件,长度自适应窗口的算法,也就是让计算读懂船是在开还是在原定徘徊这件事情。计算机判定要有一个时间窗口的概念,在一个时间窗口内,这个物体的运动行为,轨迹体现出什么的特征,认为它是在行使还是抛锚,用这种方式去了解它。通过这种方式,我们可以把船舶行使过程中,锚泊和巡航还有靠泊事件区分开。


  因为锚泊和靠泊很接近,都是停在一个地方不太动,我们可以根据它停靠的位置来进行区分呢?


  第二类,对于它停靠的位置怎么区分呢,我们用了一个基于网格和密度的聚类算法,用这种聚类算法来实现。感谢您的提问,谢谢。


  @林庆-供应链与物流:谢谢徐主任这么详细的回答,实际上,对于徐主任提到的答案,我大概理解成为中小物流企业对于大数据时代角色,是一个参与者、数据分享者,是数据共享到数据服务商,然后同时也在享受数据服务商提供的数据服务。举个例子,一家小型物流企业,以前用自有系统,或者excel表格方式积累了非常多用户数据或者业务数据,如果让企业自己来做数据分析或者数据挖掘的话,会面临很大的技术问题包括它的服务资源性问题,解决问题的方式就是它们向数据服务商提供相应数据,同时从数据服务商那里取得相应的数据结果,从而解决传统统计方式所不能解决的问题实现业务决策。


  @徐凯-航运大数据:林总您的这个观点我非常认同,实际上您理解的角度,说到了一个实质性的问题,将来在大数据的时代,一定会有第三方也就是数据服务商的出现。


  就如同过去(很多民营企业)对咨询(服务)不是很重视,前段时间与一位民营航运公司的高管沟通,它们公司在行业里已经做的颇具规模, 但它们很少或者说几乎没有请过咨询公司为它们做战略规划或者咨询。或者说,我们有的时候并不是不需要,也可以说是不迫切。但从未来这个时代来说的话,对于一些特定行业,包括物流行业在内,这样的数据服务商是很必要的。不能即当裁判又当选手,数据服务商一定不是从行业自身内出现的服务者,说我来给大家服务,来整合数据吧,这都是不现实的,一定要有一个“智库”这样的角色,不光给政府提供支持,更重要的是给行业提供自身服务。


  那么数据服务有分不同层次,未来的市场可能会分化为会面向有高端服务和基础的公共服务。特别基础的公共服务是非常有价值的,举个例子,就像我们的国家,在个人的信用或者企业的证信的体系不完善的情况下,不管是企业的申请贷款还是个人的诚信的监督都很困难,这就是因为一个监督手段的缺失。这样一个第三方如果能秉持着公正、公立的态度,提供这样的服务,对于社会或者企业的经营风险把控来说都是有好处的。


  @我是吉小涛:想知道,大数据并不是我们每个单位,每个行业分子所能完全做出的,但就获得数据方面,会不会出现难共享,垄断?


  @徐凯-航运大数据:现在有很多银行不去做的事情,保理行业都去做了,现在出现的保理行业、物流平台、电商平台,实际上赚钱的业务都是在做垫资服务,都是因为我们的诚信的缺乏,整个市场我们不知道每个企业过去的经营状况怎么样,是不是一个讲诚信的公司。


  这样的第三方数据服务商既不应该是行业内出来的,也不可能站在政府的角度,如果一个政府不是站在一个服务的角度,而只是一个管理的姿态,它是没法达到一个好的服务的。更何况,政府本身条块化,区块化的,而大数据的分析是要打破条块、区块的垄断。举个例子,发展跨境物流,要经过海关,经过商检,经过国税,还需要跟交通部、商务部挂钩等。目前,还没有一个政府机构有能力做这件事情,(并且)还需要抱着服务的心态去做,所以我认为,未来一定是一个第三方机构来提供这样的服务,这个服务一定是平台化的,而且很有可能来自行业组织、智库和协会。


  @张小四NN:徐老师您好,模糊的大数据和精确的“小数据”之间怎样把握一个“最大最小”原则?


  @徐凯-航运大数据:你好,感谢你的提问,是的,大数据虽然保存了完整的信息,但是价值密度太低,所以需要对大数据进行有效的压缩和处理,为了方便计算,我们需要把很多非结构数据结构化,需要把“平淡的”数据和“有趣的”数据区分开。最大=是说要尽量覆盖完整的样本;最小=是要在关键信息尽量完整保留的前提下,尽量缩小数据的体量,浓缩出精华,从数据测采集、存储、加工、分析各个环节都是分布式实现的。


  @张小四NN:是在大的数据中,提炼小的、有用的小数据才实现我们的精准定位吗


  @徐凯-航运大数据:是的,数据分析(或者数据挖掘)发挥数据的价值,充分的利用信息,才是关键。


  @张小四NN:那么大数据和我们所学到或者应用到的需求预测之间的区别在哪?


  @徐凯-航运大数据:需求预测比如外推法或者回归分析等方法,主要建立于统计学基础上,通过样本子集估算全局或者是未来的量, 大数据分析第一个区别就是分析的是全样本而不是采样数据,其次要用到大量的并行计算做聚类和相关性等分析,这些分析并没有先验的经验公式。


作者:徐凯

上海国际航运研究中心 航运信息化研究室

联系电话:021-65853850*8006



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存